InforLorV4, Main, Exploration, bibRecord, 006792

Communication et apprentissage par renforcement pour une équipe d'agents

Identifieur interne : 006792 ( Main/Exploration ); précédent : 006791; suivant : 006793

Communication et apprentissage par renforcement pour une équipe d'agents

Auteurs : Daniel Szer ; François Charpillet

Source :

RBID : CRIN:szer04c

English descriptors

KwdEn :
- mdp, multiagent systems, reinforcement learning.

Abstract

Nous présentons un nouvel algorithme d'apprentissage par renforcement pour des systèmes multi-agents coopératifs. Le problème de contrôle est formalisé comme un processus de décision markovien que nous cherchons à résoudre de manière décentralisée. Pour cela, nous proposons une variante du Q-learning avec communication, à savoir un mécanisme de notification réciproque. Nous allons introduire le problème de coopération multi-agents et poser un critère d'optimalité pour la solution souhaitée. Nous allons ensuite présenter l'algorithme de notification réciproque, prouver sa convergence et étudier des variantes de l'algorithme qui permettent des stratégies de communication plus flexibles. Nous conclurons avec les performances de l'algorithme sur un exemple d'apprentissage précis.

Affiliations:

Links toward previous steps (curation, corpus...)

to stream Crin, to step Corpus: 003D80
to stream Crin, to step Curation: 003D80
to stream Crin, to step Checkpoint: 000620
to stream Main, to step Merge: 006A95
to stream Main, to step Curation: 006792

Le document en format XML

<record><TEI><teiHeader><fileDesc><titleStmt><title xml:lang="en" wicri:score="82">Communication et apprentissage par renforcement pour une équipe d'agents</title>
</titleStmt>
<publicationStmt><idno type="RBID">CRIN:szer04c</idno>
<date when="2004" year="2004">2004</date>
<idno type="wicri:Area/Crin/Corpus">003D80</idno>
<idno type="wicri:Area/Crin/Curation">003D80</idno>
<idno type="wicri:explorRef" wicri:stream="Crin" wicri:step="Curation">003D80</idno>
<idno type="wicri:Area/Crin/Checkpoint">000620</idno>
<idno type="wicri:explorRef" wicri:stream="Crin" wicri:step="Checkpoint">000620</idno>
<idno type="wicri:Area/Main/Merge">006A95</idno>
<idno type="wicri:Area/Main/Curation">006792</idno>
<idno type="wicri:Area/Main/Exploration">006792</idno>
</publicationStmt>
<sourceDesc><biblStruct><analytic><title xml:lang="en">Communication et apprentissage par renforcement pour une équipe d'agents</title>
<author><name sortKey="Szer, Daniel" sort="Szer, Daniel" uniqKey="Szer D" first="Daniel" last="Szer">Daniel Szer</name>
</author>
<author><name sortKey="Charpillet, Francois" sort="Charpillet, Francois" uniqKey="Charpillet F" first="François" last="Charpillet">François Charpillet</name>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc><textClass><keywords scheme="KwdEn" xml:lang="en"><term>mdp</term>
<term>multiagent systems</term>
<term>reinforcement learning</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front><div type="abstract" xml:lang="fr" wicri:score="-519">Nous présentons un nouvel algorithme d'apprentissage par renforcement pour des systèmes multi-agents coopératifs. Le problème de contrôle est formalisé comme un processus de décision markovien que nous cherchons à résoudre de manière décentralisée. Pour cela, nous proposons une variante du Q-learning avec communication, à savoir un mécanisme de notification réciproque. Nous allons introduire le problème de coopération multi-agents et poser un critère d'optimalité pour la solution souhaitée. Nous allons ensuite présenter l'algorithme de notification réciproque, prouver sa convergence et étudier des variantes de l'algorithme qui permettent des stratégies de communication plus flexibles. Nous conclurons avec les performances de l'algorithme sur un exemple d'apprentissage précis.</div>
</front>
</TEI>
<affiliations><list></list>
<tree><noCountry><name sortKey="Charpillet, Francois" sort="Charpillet, Francois" uniqKey="Charpillet F" first="François" last="Charpillet">François Charpillet</name>
<name sortKey="Szer, Daniel" sort="Szer, Daniel" uniqKey="Szer D" first="Daniel" last="Szer">Daniel Szer</name>
</noCountry>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Main/Exploration

HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 006792 | SxmlIndent | more

HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 006792 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     CRIN:szer04c
   |texte=   Communication et apprentissage par renforcement pour une équipe d'agents
}}

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022

	Serveur d'exploration sur la recherche en informatique en Lorraine
	Attention, ce site est en cours de développement ! Attention, site généré par des moyens informatiques à partir de corpus bruts. Les informations ne sont donc pas validées.

Serveur d'exploration sur la recherche en informatique en Lorraine

Communication et apprentissage par renforcement pour une équipe d'agents

Communication et apprentissage par renforcement pour une équipe d'agents

Source :

English descriptors

Abstract

Links toward previous steps (curation, corpus...)

Le document en format XML

Pour manipuler ce document sous Unix (Dilib)

Pour mettre un lien sur cette page dans le réseau Wicri